🦊Wan2.1 画像生成

👉 |

Wan2.1 画像生成

1フレームで動画生成する！

だけですが、もともと画像生成も機能に組み込まれているので、単なる動画生成AIの1フレーム生成よりもかなり性能が良い(らしい)です

ソース失念したものの、確か論文だったかに学習自体が「1フレームの画像を生成できるように学習→動画を生成できるように学習」としているようです。(おそらくHunyuanVideoなども似たような学習方法を取っていると思われる)morisoba65536.icon

更にimage2videoはtext2videoから追加学習をしているらしい？

https://claude.ai/public/artifacts/39c2edb7-837f-4a1b-a050-2b2bac2fdfb5Wan2.1：動画生成モデルがテキスト画像生成で高性能を発揮する理由 by Claude.icon

静止画と動画両方で学習されているのと、VAEの設計も良いのかな？nomadoor.icon

最適なパラメータがわからないので暫定nomadoor.icon

https://www.reddit.com/r/StableDiffusion/comments/1m0u7p2/ive_made_some_sampler_comparisons_wan_21_image/I’ve made some sampler comparisons. (Wan 2.1 image generation)

text2image

https://gyazo.com/06f4d5ba628d9fbcd54782642fce3ff2

Wan2.1_14B_text2image.json

🟪text2video(14B)モデル

🟨text2ivideoのときと違い大きな解像度を使ったほうが良いらしい

できればフルHD(1920×1080)、VRAMが少ない場合はHD(1280×720)

🟩サンプラーによる違いが大きい

Euler + betaが現状安定？

text2image (Self Forcing + NAG)

https://gyazo.com/bb87f4b069d4330fae1be19b027f57d4

Wan2.1_14B_text2image_Self-Forcing_NAG.json

🟪Self Forcing LoRAを追加

🟩KSamplerWithNAGノードに変更

サンプラーをLCMにしないと動かないと思ってたけど、画像生成だとEuler + Betaでも動くnomadoor.icon

LCMより当然品質が良い

こちらSelf Forcing ではgradient_estimation or unipc サンプラー/ betaスケジューラーあたりでもおそらくうまくいくかとmorisoba65536.icon

text2image + LoRA適用(Self Forcing + NAG)

https://gyazo.com/96d9a07eb2cfda85b9d6217afbc1e426

Wan2.1_14B_text2image_LoRA_Self-Forcing_NAG.json

🟥https://civitai.com/models/1773251/wan21-classic-90s-film-aesthetic-the-crow-styleWAN2.1 Classic 90s Film Aesthetic (The Crow) STYLE

image2image (Self Forcing + NAG)

https://gyazo.com/a3d1ddc1abaffca510bc7779d91a4f11

Wan2.1_14B_image2image_Self-Forcing_NAG.json

🟪text2videoモデル

🟩denoiseの値を変更

VACE_depth (Self Forcing + NAG)

https://gyazo.com/13681d014239735b7764e8f4e08c8302

Wan2.1_14B_VACE_depth_Self-Forcing_NAG.json

🟥VACE

DepthAnything v2で入力画像の深度マップを作成

画像と同じ大きさのマスクを作成し入力する

VACE_inpainting (Self Forcing + NAG)

https://gyazo.com/4f3ea9d93a7fec96cdcf81f8b6b4b13f

Wan2.1_14B_VACE_inpainting_Self-Forcing_NAG.json

🟥VACEでinpaintingするときは、マスク部分を灰色(color: 8355711)で埋める必要がある

VACE_Reference (Self Forcing + NAG)

https://gyazo.com/2381235f46a83151f3b356a445091018

Wan2.1_14B_VACE_inpainting_Reference_Self-Forcing_NAG.json

Referenceを使うのでそもそも余剰フレームが生成されるが、なおかつ5フレーム余分に生成しないと綺麗な画像にならない

🟥そのために、画像とマスクを5枚に複製

5フレーム生成しておいて画像生成と言えるかは(´ε｀；)ｳｰﾝ…nomadoor.icon